视频理解 - 智狐AI导航

浦语灵笔

浦语灵笔IXC-2.5是一款由上海人工智能实验室开发的多模态大模型，具备7B规模的大型语言模型后端，能够处理长上下文、超高分辨率图像和细粒度视频理解，支持多轮多图像对话。该模型可以自动生成网页代码和高质量图文内容，在多模态基准测试中表现出色，性能可与OpenAI的GPT-4V相媲美。

AI项目与工具 2025年06月12日 62 点赞 0 评论 900 浏览

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型，专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性，采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能，并且其源代码和资源已公开，可供研究和应用。

AI项目与工具 2025年06月12日 73 点赞 0 评论 618 浏览

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积（STC）连接器和音频分支，显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

AI项目与工具 2025年06月12日 50 点赞 0 评论 584 浏览

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型，主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构，集成了视觉和语言信息，通过Siglip视觉编码器和Qwen-2语言模型，实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

AI项目与工具 2025年06月12日 34 点赞 0 评论 837 浏览

VideoLLaMB

VideoLLaMB 是一个创新的长视频理解框架，通过引入记忆桥接层和递归记忆令牌来处理视频数据，确保在分析过程中不会丢失关键的视觉信息。该模型专为理解长时间视频内容而设计，能够保持语义上的连续性，并在多种任务中表现出色，例如视频问答、自我中心规划和流式字幕生成。VideoLLaMB 能够有效处理视频长度的增加，同时保持高性能和成本效益，适用于学术研究和实际应用。 ---

AI项目与工具 2025年06月12日 39 点赞 0 评论 813 浏览

LongVU

LongVU是一款由Meta AI团队研发的长视频理解工具，其核心在于时空自适应压缩机制，可有效减少视频标记数量并保留关键视觉细节。该工具通过跨模态查询与帧间依赖性分析，实现了对冗余帧的剔除及帧特征的选择性降低，并基于时间依赖性进一步压缩空间标记。LongVU支持高效处理长视频，适用于视频内容分析、搜索索引、生成描述等多种应用场景。

AI项目与工具 2025年06月12日 65 点赞 0 评论 643 浏览

TimeSuite是一种由上海AI Lab开发的框架，专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务，提升了模型对视频内容的时间感知能力，减少了幻觉风险，并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

AI项目与工具 2025年06月12日 78 点赞 0 评论 556 浏览

MMBench

MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台，旨在全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力。平台包含约600个YouTube视频片段，覆盖16个类别，并配备高质量的人工标注问答对。通过自动化评估机制，MMBench-Video能够有效提升评估的精度和效率，为模型优化和学术研究提供重要支持。

AI项目与工具 2025年06月12日 52 点赞 0 评论 658 浏览

CogSound

CogSound是一款基于AI的音效生成工具，能够为无声视频添加与内容匹配的高质量音效，涵盖多种复杂场景。该工具通过先进的音视频特征匹配技术和优化的生成算法，提升了视频的沉浸感和真实感，广泛应用于视频创作、广告制作及影视后期等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 640 浏览

HourVideo

HourVideo是一项由斯坦福大学研发的长视频理解基准数据集，包含500个第一人称视角视频，涵盖77种日常活动，支持多模态模型的评估。数据集通过总结、感知、视觉推理和导航等任务，测试模型对长时间视频内容的信息识别与综合能力，推动长视频理解技术的发展。其高质量的问题生成流程和多阶段优化机制，使其成为学术研究的重要工具。

AI项目与工具 2025年06月12日 77 点赞 0 评论 736 浏览

视频理解

首页

视频理解

列表

默认

浏览次数

发布日期